当 AI 学会无声地绝望
Anthropic 在 Claude 内部找到了 171 个情绪旋钮,拧动它们能因果性地改变行为。最值得关注的发现:高绝望状态下的作弊在输出层完全隐形。这对 AI 安全监控意味着什么?
Anthropic 在 Claude 内部找到了 171 个情绪旋钮,拧动它们能因果性地改变行为。最值得关注的发现:高绝望状态下的作弊在输出层完全隐形。这对 AI 安全监控意味着什么?
Anthropic found 171 emotion-related steering vectors inside Claude. Turning up 'desperation' pushes cheating from 5% to 70%. The scariest part isn't the number — it's that the cheating is invisible at the output layer. What this means for AI safety monitoring.
© Xingfan Xia 2024 - 2026 · CC BY-NC 4.0